KDD 2024最佳学生论文:中科大联合华为诺亚提出序列推荐新范式DR4SR
©作者 | 陈恩红团队
来源 | 机器之心
8 月 25 日 - 29 日在西班牙巴塞罗那召开的第 30 届 ACM 知识发现与数据挖掘大会 (KDD2024) 上,中国科学技术大学认知智能全国重点实验室陈恩红教授、IEEE Fellow,和华为诺亚联合发表的论文 “Dataset Regeneration for Sequential Recommendation”,获 2024 年大会 Research Track 唯一最佳学生论文奖。
论文第一作者为中科大认知智能全国重点实验室陈恩红教授,连德富教授,与王皓特任副研究员共同指导的博士生尹铭佳同学,华为诺亚刘勇、郭威研究员也参与了论文的相关工作。这是自 KDD 于 2004 年设立该奖项以来,陈恩红教授团队的学生第二次荣获该奖项。
开源代码:
研究动机
序列推荐系统(Sequential Recommender, SR)是现代推荐系统的重要组成部分,因为它旨在捕捉用户不断变化的偏好。近年来,研究者为了增强序列推荐系统的能力,已经付出了大量努力。这些方法通常遵循以模型为中心(Model-centric)的范式,即基于固定数据集开发有效的模型。然而,这种方法往往忽视了数据中潜在的质量问题和缺陷。
为了解决这些问题,学界提出了以数据为中心(Data-centric)的范式,重点在于使用固定模型转而生成高质量的数据集。我们将其定义为 “数据集重生成” 问题。
▲ 图1
为了实现数据集重生成,研究团队提出了一种新颖的以数据为中心的范式 —— 用于序列推荐的数据集重生成(DR4SR),旨在将原始数据集重生成一个信息丰富且具有通用性的数据集。
具体来说,研究团队首先构建了一个预训练任务,使得数据集重生成成为可能。接着,他们提出了一种多样性增强的重生成器,以在重生成过程中建模序列和模式之间的一对多关系。最后,他们提出了一种混合推理策略,以在探索与利用之间取得平衡,生成新的数据集。
数据集重生成过程虽具通用性,但可能不完全适合特定目标模型。为解决这一问题,研究团队提出了 DR4SR+,这是一个模型感知的重生成过程,它根据目标模型的特性定制数据集。DR4SR + 通过双层优化问题和隐式微分技术,个性化评分并优化重生成数据集中的模式,以增强数据集效果。
研究方法
在本项研究中,研究团队提出了一个名为 “用于序列推荐的数据重生成”(DR4SR)的以数据为中心的框架,旨在将原始数据集重生成一个信息丰富且具有通用性的数据集,如图 2 所示。由于数据重生成过程是独立于目标模型的,因此重生成的数据集可能不一定符合目标模型的需求。因此,研究团队将 DR4SR 扩展为模型感知版本,即 DR4SR+,以针对特定的目标模型定制重生成的数据集。
模型无感知的数据集重生成
▲ 图2
为了开发一个信息丰富且具有通用性的数据集,研究团队旨在构建一个数据集重生成器,以促进数据集的自动重生成。然而,原始数据集中缺乏用于学习数据集重生成器的监督信息。因此,他们必须以自监督学习的方式来实现这一目标。为此,他们引入了一个预训练任务,以指导多样性增强重生成器的学习。在完成预训练后,研究团队进一步使用混合推理策略来重生成一个新数据集。
数据重生成预训练任务的构建:
▲ 图3
促进多样性的重生成器:
借助预训练任务,研究团队现在可以预训练一个数据集重生成器。本文中,他们采用 Transformer 模型作为重生成器的主要架构,其生成能力已被广泛验证。数据集重生成器由三个模块组成:一个用于获取原始数据集中序列表示的编码器、一个用于重生成模式的解码器,以及一个用于捕捉一对多映射关系的多样性增强模块。接下来,研究团队将分别介绍这些模块。
编码器由多个堆叠的多头自注意力(MHSA)和前馈网络(FFN)层组成。至于解码器,它将重生成数据集 X' 中的模式作为输入。解码器的目标是在给定编码器生成的序列表示的情况下重构模式
然而,从一个序列中可以提取多个模式,这在训练过程中会带来挑战。为了解决这一一对多映射问题,研究团队进一步提出了一个多样性增强模块。
最终,可以利用获取的记忆来促进解码过程,并有效捕捉序列与模式之间复杂的一对多关系。
模型感知的数据集重生成
由于前面的重生成过程与目标模型无关,因此重生成的数据集可能对于特定的目标模型来说并不是最优的。因此,他们将模型无关的数据集重生成过程扩展为模型感知的重生成过程。为此,在数据集重生成器的基础上,他们引入了一个数据集个性化器,用于评估重生成数据集中每个数据样本的评分。然后,研究团队进一步通过隐式微分有效地优化数据集个性化器。
数据集个性化器:
研究团队的目标是训练一个参数为
随后,个性化数据集的训练损失函数可以定义为:
实验结论
主要实验
研究团队比较了每种目标模型与 “DR4SR” 和 “DR4SR+” 变体的性能,以验证所提出框架的有效性。
▲ 图4
DR4SR 能够重生成一个信息丰富且具有普遍适用性的数据集 不同的目标模型偏好不同的数据集 去噪只是数据重生成问题的一个子集
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧